Objetivos

  1. Presentar el software estadístico R como una herramienta para el procesamiento y análisis de datos.
  2. Presentar RStudio como medio a partir del cual se utiliza R.
  3. Identificar los principales conceptos a la hora de comprender el lenguaje de programación en R y la interacción con la plataforma de RStudio.

¿Qué es R?

Es un entorno y lenguaje de programación gratuito y de código abierto (freeware). Más que un software estadístico como SPSS o STATA, R es un marco para el análisis estadístico con una fuerte orientación a la ciencia de datos. Se crea bajo un nuevo paradigma de ciencia abierta en 1993 por Ross Ihaka y Robert Gentleman con el foco en 4 aspectos claves:

  • Reproducibilidad
  • Transparencia
  • Colaboración
  • Acceso

El registro de los análisis queda en formato de texto plano, por lo tanto es independiente de una plataforma para poder editarlo, y además permite un control eficiente de versiones (por ejemplo vía Git). Los análisis operan en base a paquetes o librerias (¡actualmente existen más de 3000 librerías disponibles!) y su análisis se orienta principalmente a objetos (lo veremos más adelante).

  • Google Scholar Hits

Fuente: https://i0.wp.com/r4stats.com/wp-content/uploads/2012/04/Fig_2d_ScholarlyImpact.png

  • Google Trends Latinoamérica

Fuente: https://arcruz0.github.io/libroadp/


Pasos para instalar R

1. Visitar la página de CRAN (Comprehensive R Archive Network)


2. Seleccionar versión según sistema operativo

  • Windows:

  • (Mac) OS X:


3. Seguir los pasos de instalación indicados para su sistema operativo y abrir R

Visualización de R para Windows (izquierda) y Mac (derecha)

Visualización de R para Windows (izquierda) y Mac (derecha)


¿Qué es RStudio?

Es un entorno de desarrollo integrado para R (interfaz gráfica) que permite una navegación más “amigable” y dinámica dentro de la plataforma de R.Cuenta con una consola, editor de resaltado de sintaxis que admite la ejecución directa de código y herramientas para el trazado, el historial, la depuración y la gestión del espacio de trabajo para facilitar el reporte y reproducibilidad de los análisis. Esto favorece el desarrollo de procedimientos de ciencia abierta para la investigación.


Instalando RStudio

1. Visitar la página de RStudio.com, descarga y sigue las instrucciones de instalación


R para el análisis de datos sociales

Fuente: Fuente: https://www.r-bloggers.com/i-dont-want-to-learn-r-spss-is-fine-responses/


Visualización código (sintaxis) de una regresión lineal en SPSS (izquierda) y en R (derecha))

Visualización código (sintaxis) de una regresión lineal en SPSS (izquierda) y en R (derecha))


Áreas de comparación Comentarios
Curva de aprendizaje La interfaz gráfica de SPSS permite el uso más intuitivo del programa, mientras que R está orientado al código. Si bien la curva de aprendizaje de R es mayor, una vez comprendido su lenguaje se vuelve cada vez más simple incorporar nuevos conocimientos.
Variedad de técnicas de análisis Cuando el objetivo de la investigación exige una técnica estadística más avanzada, R tiene ventajas sobre SPSS. Al poseer diversos paquetes estadísticos, la cantidad de técnicas de análisis es superior y como es abierto, cada vez personas al rededor del mundo contribuyen con nuevas herramientas. Por ejemplo, toda la rama de técnicas de análisis factorial no se encuentran disponibles en SPSS.
Herramientas gráficas Las capacidades gráficas de R son sumamente superiores que las de SPSS, ofreciendo una diversidad amplia de herramientas para poder construir y personalizar las gráficas. SPSS ofrece opciones más estándar.
Interacción con otros programas R brinda la posibilidad de importar datos y/o leer datos desde diferentes formatos porque es compatible con todas las demás interfaces. Así, a través de este se puede trabajar con datos en formatos de SPSS, STATA, SAS, Excel, etc.
Masividad del programa En Chile, las ciencias sociales y el mercado laboral usan predominantemente SPSS para el análisis de datos, pero el programa STATA también fue creció en masividad. En estos mismos dominios, R ha aumentado fuertemente su popularidad en los últimos años, principalmente dado que es libre y un programa muy rico en términos de herramientas.
Costo económico SPSS es un programa pagado. Cuesta 99 dólares en su versión base y se pueden agregar hasta tres paquetes con funciones adicionales por 79 dólares cada uno. R por su parte, junto con todas sus funciones y librerías, es gratuito, y RStudio también.
Filosofía del diseño A diferencia de SPSS, R puede incorporar múltiples funcionalidades según necesidad. Esto se hace a partir de la descarga de paquetes que permiten el uso de variadas herramientas, y exportar los análisis en variados formatos hacia diversos programas computacionales (word, excel, etc.). Otra gran diferencia es que SPSS tiene código cerrado. En palabras simples, esto significa que no es posible saber exactamente qué está haciendo el programa –a no ser que se especifique en algún documento–para calcular los análisis estadísticos.

Interactuando con R y RStudio

Sintaxis:

En el archivo de código simple Rscript hay caracteres especiales para trabajar y se guarda por defecto con extensión .R.


Aritmética Básica:

Se puede utilizar para calculadora (este es un simple uso para una plataforma multianálisis).

## [1] 5
## [1] -1
## [1] 6
## [1] 0.6666667
## [1] 8

Funciones:

Se pueden utilizar funciones predeterminadas en R.

## [1] 6.907755
## [1] 0.1053981
## [1] 2
## [1] 2
## 
## log> log(exp(3))
## [1] 3
## 
## log> log10(1e7) # = 7
## [1] 7
## 
## log> x <- 10^-(1+2*1:9)
## 
## log> cbind(x, log(1+x), log1p(x), exp(x)-1, expm1(x))
##           x                                                    
##  [1,] 1e-03 9.995003e-04 9.995003e-04 1.000500e-03 1.000500e-03
##  [2,] 1e-05 9.999950e-06 9.999950e-06 1.000005e-05 1.000005e-05
##  [3,] 1e-07 1.000000e-07 1.000000e-07 1.000000e-07 1.000000e-07
##  [4,] 1e-09 1.000000e-09 1.000000e-09 1.000000e-09 1.000000e-09
##  [5,] 1e-11 1.000000e-11 1.000000e-11 1.000000e-11 1.000000e-11
##  [6,] 1e-13 9.992007e-14 1.000000e-13 9.992007e-14 1.000000e-13
##  [7,] 1e-15 1.110223e-15 1.000000e-15 1.110223e-15 1.000000e-15
##  [8,] 1e-17 0.000000e+00 1.000000e-17 0.000000e+00 1.000000e-17
##  [9,] 1e-19 0.000000e+00 1.000000e-19 0.000000e+00 1.000000e-19
## function (x, base = exp(1)) 
## NULL
## [1] 2

Vectores y variables:

Objeto unidimensional constituido por elementos del mismo tipo.

## [1] 1
## [1] 1 2 3 4
## [1] 1 2 3 4
## [1] 4 3 2 1
## [1] 1 2 3 4
## [1] 4 3 2 1
## [1] -1  0  1  2
## [1] -1  0  1  2
## [1] 2 4 6 8
##  [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
##  [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Operaciones con vectores numéricos

## [1] 0.5 1.0 1.5 2.0
## [1] 0.5 1.0 1.5 2.0
## [1] 4 6 6 4
## [1] -1  0  1  2
## [1] 5 5 7 7
## Warning in c(1, 2, 3, 4) + c(4, 3, 2): longer object length is not a
## multiple of shorter object length
## [1] 5 5 5 8
## Warning in (1:4) * (1:6): longer object length is not a multiple of shorter
## object length
## [1]  1  4  9 16  5 12
## [1] 1 4 3 8

Matrices:

Objeto bidimensional constituido por filas y columnas de elementos del mismo tipo.

##      [,1] [,2] [,3]
## [1,]    1    4    7
## [2,]    2    5    8
## [3,]    3    6    9
##      [,1] [,2] [,3] [,4]
## [1,]    1    3    5    7
## [2,]    2    4    6    8
##      [,1] [,2] [,3] [,4]
## [1,]    1    2    3    4
## [2,]    5    6    7    8

Objetos:

R es un programa orientado a objetos, los que son creados por funciones, que en su forma más general sería: Objeto <- función o de manera equivalente Objeto = función. Hay diferentes tipos de objetos: vectores, factores, matrices, marco/base de datos (entre otros) Veamoslo en el siguiente código:

## [1] 23 45 67 89
## [1] 1 1 0 1

Fijar directorio de trabajo:

Por temas de reproducibilidad, se recomienda establecer directorio de trabajo (ubicación en el pc), donde se buscan y guardan los archivos que se vayan utilizando y/o creando durante el análisis.


Librerías o Paquetes:

Conjunto de funciones que tienen una relación entre ellas y que usualmente vienen acompañadas de ficheros de ayuda (documentación). Algunas librerías vienen preinstaladas, otras específicas hay que instalarlas de acuerdo a las necesidades del usuario.

Pueden encontrar información de las librerías oficiales de R disponibles según disciplina académica en el siguiente link.

Además, para evitar lo de instalar/cargar, hay una librería en R que se llama “pacman” (package manager) que cumple la función de cargar las librerías, o en su defecto, instalarlas y cargarlas.